只需 3.7 秒， 百度最新AI算法就能克隆任何人的声音！

其他

只需 3.7 秒，百度最新AI算法就能克隆任何人的声音！

2018-03-13 全球人工智能

－高薪招聘兼职AI讲师、助教和技术开发！

仅需3.7秒的音频，中国科技巨头百度开发的一种新的AI算法就可以克隆出一种非常可信的虚假声音。就像机器学习软件的迅速发展一样，这种软件可以使虚拟视频的制作民主化，这项研究表明为什么越来越难相信互联网上的任何媒体。

这家科技巨头的研究人员在Deep Voice发布了他们的最新进展，Deep Voice是一个为声音克隆开发的系统。一年前，该技术需要大约30分钟的音频来创建新的假音频片段。现在，只需几秒钟的培训材料，它可以创造出更好的结果。

百度近日宣布，百度开发的新 AI 算法Deep Voice可以通过3.7秒钟的录音样本数据就能完美的克隆出一个人的声音。

Deep Voice是百度AI研究院一个由深度神经网络构建的高质量语音转（TTS ）系统。该系统不仅提高的模拟的时间，百度还优化了它出错的概率。甚至还在一个单GPU服务器上，把推断规模提高到到每天1000万次以上。

自适应说话人编码方法在训练、克隆和音频生成中的应用。

Deep Voice最早是在2017年的年初发布了第一版，初版的系统就能模拟初简短的句子，而且说起话来几乎无法区分和真人的区别。但是该系统一次只能模拟一个人的声音，而且需要好几个小时的学习才能克隆成功。但是最新发布的成功已经缩短到3.7秒，并且能将女性声音转变成男性，英式声音变成美式。

模拟器编码器结构

百度研究院的研究人员在预印本网站 arxiv 上的发表了其 Deep Voice 系统的最新进展《Neural Voice Cloning with a Few Samples》。除了利用少量样本克隆声音外，系统还能将女性声音转变成男性，英式声音变成美式。百度研究人员表示，这项研究可应用于人机交互的个性化方面。

论文：https://arxiv.org/pdf/1802.06006.pdf

－马上报名学习，挑战百万年薪－

点击“阅读原文”，查看详情

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖